美丽的概率

Beautiful Probability

我们是否应当期待,理性在某种层面上是简单的?我们是否应当在信念与选择的技艺中,去寻找并希望发现其底层的美?

让我先借用已故伟大的贝叶斯大师 E. T. Jaynes 的一句抱怨来引出这个问题:1

两位医学研究者在不同医院里,各自独立地使用同一种疗法。两人谁也不至于去伪造数据,但其中一位事先决定,由于资源有限,无论到时观察到多少治愈病例,他在治疗完 n = 100 名病人后就停止。另一位则把自己的声誉押在这种疗法的有效性上,决定除非数据表明治愈率明确高于 60%,否则就不停手,不管这需要多少病人。但事实上,两人都在完全相同的数据上停止了:n = 100 [名病人],r = 70 [例治愈]。那么,我们是否应当从他们的实验中得出不同的结论?”[推测两组对照组的结果也相同。]

Cyan 指引我们去看 MacKay 的优秀统计学教材第 37 章的内容,那里对这个问题有更详尽的解释。2

按照老式统计程序——我相信今天依然还在教授——这两位研究者所做的是带有不同停止条件的不同实验。这两个实验本来可能会以不同的数据收场,因此代表了对该假设的不同检验,需要不同的统计分析。第一项实验完全可能具有“统计显著性”,而第二项则没有。

你是否会因此感到不安,这件事足以说明你对概率论,乃至对理性本身的态度。

非贝叶斯统计学家也许会耸耸肩,说:「嗯,不是所有统计工具都有同样的长处和短处,你懂的——锤子不像螺丝刀——如果你应用不同的统计工具,得到不同结果也不奇怪,就像你用同一组数据去做线性回归,或者训练一个带正则化的神经网络一样。你得在合适的场合用合适的工具。生活本来就很混乱——」

而贝叶斯主义者的回答则是:「恕我直言,你说什么?一个固定实验方法在产出同样数据后,其证据影响竟然取决于研究者的私人想法?而你居然还有脸指责我们‘太主观’?」

如果自然是某一种样子,那么我们所见数据以这种方式出现的似然就是一回事;如果自然是另一种样子,那么这些数据以这种方式出现的似然就是另一回事。但某个既定自然状态产生我们眼前这些数据的似然,与研究者的私人意图毫无关系。所以,无论我们对自然提出怎样的假设,似然比都是相同的,证据影响也是相同的,后验信念也应当在这两项实验之间保持一致。若两种老式方法会得出不同答案,那么它们之中至少有一种必然丢弃了相关信息——或者干脆就是算错了。

贝叶斯主义者与可诅咒的频率学派之间那场古老战争,已经绵延了几十年;我不打算在这篇随笔里去重述那段更久远的历史。

但这场冲突的核心之一在于,贝叶斯主义者期待概率论是……我想找的词是什么?「整齐」?「干净」?「自洽」?

正如 Jaynes 所说,贝叶斯概率的定理本来就只是——定理,属于一个自洽证明系统中的定理。无论你使用什么推导、按什么顺序推导,贝叶斯概率论的结果都应当始终一致——每一个定理都应当与其他所有定理相容。

如果你想算 10+10,你可以把它改写成 (2 × 5) + (7 + 3),也可以改写成 (2 × (4 + 6)),或者使用任何别的合法小技巧,但结果最后都必须一样,在这个例子里就是 20。如果一种算法算出 20,另一种却算出 19,那么你就可以断定,至少有一次你做了不合法的操作。(在算术里,这种非法操作通常是除以零;而在概率论里,通常是把一个本来不该直接使用的无穷量拿来用了,而它并非某个有限过程的极限。)

如果你得到了 19 = 20 这样的结果,那就好好找找你刚才犯下的错误吧,因为相比之下,更不可能的是你把整个算术本身都炸成了烟。假如真有人成功从贝叶斯概率论中推导出一个真实的矛盾——比如说,同样的实验方法在产出同样结果时,却会产生两种不同的证据影响——那整个大厦就会灰飞烟灭。连同集合论一起,因为我很确定 ZF 为概率论提供了一个模型。

数学!这才是我刚才在找的那个词。贝叶斯主义者期待概率论是数学。这正是我们为什么会对 Cox 定理及其诸多扩展感兴趣:它们表明,任何遵守若干约束条件的不确定性表征,最终都必须映射到概率论上。自洽的数学很好,但唯一的数学就更好了。

然而……理性应当是数学吗?概率必须优美,这绝非什么理所当然的结论。现实世界明明是杂乱的——那你难道不该用杂乱的推理来应对它吗?也许非贝叶斯统计学家手里那一大堆临时拼装的方法与临时拼装的辩护,反而让他们拥有更强的能力,因为他们的工具箱确实更大。问题干净整齐时固然很好,但它们通常并不如此,而你只能接受这一点。

毕竟,有个众所周知的事实是:在许多问题上你无法使用贝叶斯方法,因为贝叶斯计算在计算上难以处理。那为什么不让百花齐放呢?为什么不让你的工具箱里多放几件工具?

才是心态上的根本差异。老派统计学家是以工具的方式思考的:把招数抛向具体问题。而贝叶斯主义者——至少这个贝叶斯主义者如此,我想我并不只是代表我自己——我们是以法则的方式思考。

寻找法则,并不等于寻找特别整齐漂亮的工具。热力学第二定律并不是一台特别整齐漂亮的冰箱。

卡诺循环是一种理想热机——事实上,是那台理想热机。任何由两个热源驱动的热机,都不可能比卡诺热机更高效。其推论是:所有在同样热源之间运行的热力学可逆热机,效率都相同。

但是,当然,你并不能拿一台卡诺热机去给现实中的汽车提供动力。现实中的汽车发动机与卡诺热机之间的相似程度,也就跟汽车轮胎与完美滚动圆柱之间的相似程度差不多。

显然,既然如此,卡诺热机对于制造现实世界的汽车来说,就是一种无用的工具。热力学第二定律显然在这里不适用。它太难在现实世界里实现了,不是吗?干脆无视热力学——用什么好使就用什么。

我认为,这正是那些仍然死抱旧路不放之人所陷入的那类混乱。

没错,你并不能总是对一个问题做出精确的贝叶斯计算。你有时必须寻找近似;而且,确实经常如此。这并不意味着概率论就不再适用,正如你无法按原子逐个计算一架 747 的空气动力学,并不意味着 747 不是由原子构成的。无论你使用何种近似,它之所以有效,是因为它在某种程度上逼近了理想的贝叶斯计算;而它之所以失败,则恰恰是因为它偏离了这个理想。

贝叶斯主义关于自洽性与唯一性的证明是双刃剑。正如任何满足 Cox 自洽公理(或其众多重述与推广版本)的计算,最终都必须映射到概率上一样,任何不属于贝叶斯的东西,也都必然会在某项自洽性测试中失败。反过来,这就会使你遭受诸如 Dutch-booking 这样的惩罚(即接受某些赌局组合,它们必然亏损;或者拒绝某些赌局组合,它们必然盈利)。

你或许算不出最优答案。但无论你采用何种近似,它的失败与成功都将是可以解释的,而且都只能在贝叶斯概率论的框架下得到解释。你也许并不知道这个解释;但那并不意味着解释不存在。

所以,你想用线性回归,而不是做贝叶斯更新?那就看看线性回归背后的底层结构,你会发现,它对应的是:在高斯似然函数以及参数上的均匀先验之下,选取最佳点估计。

你想用带正则化的线性回归,因为它在实践中效果更好?那对应的就是(贝叶斯主义者会说)对权重使用了高斯先验。

有时你不能按字面意义上使用贝叶斯方法;而且确实经常如此。但当你能够使用那种把一切可用知识碎片都纳入其中的精确贝叶斯计算时,你就完成了。你永远不会再找到一种统计方法,能给出更好的答案。你也许会找到一种廉价近似,它几乎总是表现极佳,而且更便宜,但它不会更准确。除非另一种方法使用了某些你没有纳入贝叶斯计算的知识——也许是以伪装成先验信息的形式——而一旦你把这些先验信息输入贝叶斯计算,贝叶斯计算就会再次与之相等,或优于它。

当你使用一种老式的、临时拼装的统计工具,并辅以临时拼装(但往往也颇有意思)的辩护时,你永远不知道明天会不会有人发明出一种更聪明的工具。但当你能够直接使用那种映照贝叶斯法则的计算时,你就结束了——就像你真的把一台卡诺热机装进了自己的车里一样。正如俗话所说,那是“贝叶斯最优”的。

在我看来,工具箱派是在看立方数序列 { 1, 8, 27, 64, 125, ... },然后指着其一阶差分 { 7, 19, 37, 61, ... } 说:「看吧,生活并不总是这么整齐——你得适应环境。」而贝叶斯主义者则指着三阶差分,指着那个更深层的稳定层次 { 6, 6, 6, 6, 6, … }。批评者则说:「你到底在说什么鬼?明明是 7、19、37,不是 6、6、6。你把这个混乱的问题过度简化了;你对简单性太执着了。」

它在表面层次上未必简单。你必须往下潜得更深,才能找到稳定性。

要思考法则,而不是工具。就算你必须去计算法则的近似值,法则本身也不会因此改变。飞机依然是由原子构成的,它们不会因为空气动力学计算太难,就在自然中额外受到什么特别豁免的支配。近似存在于地图之中,而不在疆域之中。你可以知道热力学第二定律,同时仍作为工程师去制造一台不完美的汽车发动机。第二定律并不会因此失去适用性;你对这条法则以及对卡诺循环的理解,会帮助你尽可能逼近理想效率。

我们并不是仅仅因为贝叶斯方法很美,就为它着迷。美只是一个副产物。贝叶斯定理之所以优雅、自洽、最优,并且可被证明是唯一的,是因为它们是法则

Edwin T. Jaynes, “Probability Theory as Logic,” in Maximum Entropy and Bayesian Methods, ed. Paul F. Fougère (Springer Netherlands, 1990). ↩︎

David J. C. MacKay, Information Theory, Inference, and Learning Algorithms (New York: Cambridge University Press, 2003). ↩︎